#AI Agent

3周前
#BestBlogs 我们距离 Agent 的 DeepSeek 时刻还有多远 | Z Potentials 深度分析 AI Agent 的定义、技术演进方向、Multi-Agent 架构必要性及距实现愿景的距离。 摘要: 文章对 AI Agent 进行了深度技术分析。首先澄清 Agent 定义,区分市场上的“套壳”现象,并对比 OpenAI 与 LangChain 在 Agent 形态上的不同路线。接着探讨了 Agent 技术栈的进化,包括模型 Agentic 能力的内化、工程整合的价值(如 Browser Use、Manus 产品思路)以及核心协议(MCP、A2A)的发展与竞争。 文章重点论述了 Multi-Agent 架构相较于 Single-Agent 的优势,分析其如何缓解内存、工具调用和 ReAct 框架局限性问题,并梳理了 Multi-Agent 的六种核心架构模式。最后,文章评估了 AI Agent 的发展现状,认为尽管面临诸多挑战(如技术知识缺乏、构建耗时),但通过工程创新,未来 12-24 个月有望看到显著进展,距离 Agent 的 DeepSeek 时刻正在稳步迈进。 主要内容: 1. 市场对 AI Agent 定义存在混淆,需区分纯粹 Agent 与混合架构。 -- 分析 OpenAI 代表的纯粹 LLM 驱动路线与 LangChain 代表的工程与模型混合路线,指出两者在系统设计、开发门槛和适用场景上的差异,强调理解不同 Agent 形态的重要性。 2. AI Agent 技术栈正向模型能力内化与工程整合并重方向进化。 -- 强调 SOTA 模型内化工具调用能力、环境交互学习的重要性,同时 Browser Use 和 MCP/A2A 等工程创新极大提升了 Agent 的实用性和可扩展性,技术发展是底层模型和工程能力的共同驱动。 3. Multi-Agent 分布式协作架构是克服 Single-Agent 局限性的关键。 -- 阐述 Multi-Agent 在缓解长时记忆、复杂工具管理、ReAct 框架迭代深度受限等问题上的优势,并通过多方案探索、人类协作适配性等体现其鲁棒性和扩展性,并介绍 Supervisor、Hierarchical 等六种典型架构模式。 4. 协议标准化(如 MCP 和 A2A)是 Agent 生态繁荣的基础,但存在潜在标准之争。 -- 分析 MCP 解决工具调用、A2A 解决 Agent 通信的核心作用,指出两者在短期互补、长期可能存在生态位重叠和标准竞争的风险,其本质在于 Agent 原子能力是以工具还是子 Agent 形式封装。 5. AI Agent 的真正突破依赖于更好的工程创新而非简单“套壳”或“苦活累活”。 -- 回应关于 AI 应用“套壳”的观点,认为短期“苦活累活”能产生差异化,但长期看将被自动化重构;真正的壁垒在于打造更易用、更高效的工具链和系统集成能力,减少对人力的依赖,符合 AI 时代稀释人力规模效应的趋势。 文章链接:
4个月前
2025年立春时间:2月3日22时10分13秒 明天晚上10点10分就进入乙巳年了 在甲辰年的最后一天,我写下一个对2025年AI的展望: 1、出现基于节点化的AI Agent 通过对话方式生成节点工作流,不论是comfyUI,还是coze/dify,甚至blueprint。因为大量的workflow都是JSON,AI是容易理解JSON的,将节点构建RAG是有机会构建这类Agent的。 2、大批量出现AI视频生产工具 INPUT文案思路-->R1 出分镜脚本+文案+BGM+音效 --> 各类AI生图生视频 -->工程化转场合并 ---> 各类TTS模型 ---> 自动化配BGM声效(需要一些RAG) 3、vLLM视觉化Agent爆发 除了各类视觉化Agent操作外,衍生出了大量数字资产。因为有大批量的实体内容将更快速度转变成数字内容。 4、end 2 end 语音交互普及 更低延迟的能力开始民用化,有大量场景会替换掉键入式对话交互,反而会出现更多的电话语音沟通场景,或是虚拟人沟通场景 5、开始掀起机器人创业浪潮,硬件供应或将开始出现供应不足 因为3,4到来,所以机器人行业会开始全面兴起了,场景化专职机器人产品会越来越多,最先可用的会是不需要太多动作指引的,比如家庭教师机器人。 6、AI资产会出现数字化登记 增量数字资产AI对人工的占比,估计会是8/2 到年末整体存量可能是5/5,甚至AI内容更多 大量AI内容出现时,人们就需要标记资产占有 7、大量出现AIOS(AI Oriented Service) 比如提供给AI使用的钱包和支付方案 比如提供给AI直接调用的API能力 比如提供给AI的使用的工具 甚至可能有专门提供给AI的数字内容平台 8、一人公司将越来越多 团队规模或许只有5,6个人,但年产值可能会很高 这种公司会越来越多,因为这几个人既具备商业思维,又非常擅长利用AI能力 9、企业仍将继续裁员,汰换老旧生产力 这次裁员不是因为赚不到钱,而是因为生产力汰换 不懂AI的一定会被淘汰,一定 10、成人AI教育会爆发式增长 毕业生多了,找不到工作和失业的多了 这些人都面临知识技能重塑 另外就是传统的技能,全部面临AI化 将会出现大量微专业认证 兼职赚钱的自由模式或许会成为常态了(当然,有可能比以前赚的更多了) 以上是我自己对乙巳年的主观臆想。
碉堡了, $TRUMP 破20B背后的三点冷思考: 1)都在抱怨AI Agent赛道遭到了猛烈的“吸血鬼”攻击,但本质上,这是一场链上DEX面向CEX的一次大吸血行动,即便交易所关闭提现、上合约阻击,也阻挡不住资金疯狂Fomo至链上。毕竟,目前腐朽没落的老叙事,酝酿生机的新叙事,都败给了美国总统发币这个顶级叙事。 这是DEX叫板CEX的一次现象级事件,短期对DEX上的已有资产造成吸血,但长期看实则是大利好,因此依然坚定看好“链上之春”的爆发; 2)不知何时,市场都没多少声音喊 $SOL Flip $ETH 了,但我不知道这是SOL的荣光还是ETH的悲哀,没有人喊是不是大家都认为已成定局了? 结局留给时间来揭晓,显然以太坊生态目前老气横秋毫无生机,只适合承载更注重去中心化、安全的DeFi应用,只能“被动”寄希望于ETF资金的大规模入局了;而SOL就不一样了,经久不甩的MEME,正当红的AI Agent大趋势,川普MEME币的青睐,随时可能爆发的PayFi、DePIN等等。选择SOL会拥有更“主动”的财富增长主宰权。 3)超级MEME 的赚钱效应是真的强,毕竟MEME简单易理解,参与门槛低,能快速教育市场、吸引新用户和资金的进场,链上市场的繁荣业态少不了MEME的存在。但,MEME只是催化剂,并不等于市场的全部, $TRUMP 能飞到20B成为MEME之王,造就这一切的是总统发币这个确定性机会,和市场上大部分MEME有根本区别。 当TRUMP的势能稳住,Fomo的资金会再度回到AI Agent主线叙事,甚至会比之前规模更大,更饥渴,会带动AI Agent叙事进一步爆发。因为AI大叙事能承载MEME,又衔接应用infra,最关键是能连接web2和web3,才是大多数人在链上能“陪伴成长”的确定性机会。 无论如何,这都是会被载入Crypto史册的一天,静待后续的精彩好戏继续上演。
6个月前
您要了解 #AI Agent,这本书(论文)是每个人绕不过去的必读之物。李飞飞《AGENT AI》,这是我今年看过最具爽感和未来方向的书籍,并且全文理解不难,没有深邃的专业术语和算法逻辑,值得每一个普通人读一读,文末评论有全文链接。 我可以负责任的告诉大家:AI Agent 是人工智能中后期最值得投资的领域(无论是美股还是Web3领域),也是最贴近To C可以感知到的方向,对于老百姓来说,是最直接能接触到且可以大规模使用的领域。 正如它开篇论文描述的:AI Agent系统的概述,该系统能够在不同领域和应用中感知和行动。AI Agent是作为通向通用人工智能(AGI)的有前景的途径。AI Agent训练已经证明了在物理世界中对多模态理解的能力。它为与现实无关的训练提供了一个框架,通过利用生成式人工智能与多个独立数据源相结合。我们提出了 一个能够在许多不同领域和应用中感知和行动的代理人工智能系统的总体概述,作为通向 AGI的代理范式。 其中文章中着重提及了AI Agent在多模态人机交互(HCI)的技术现状、应用前景及未来发展方向,从中展现出的一些核心技术与创新性方向,是值得我们深度思考和挖掘的,不要让AI Agent 只停留在语音交互,视觉交互层面,它的范围更加广阔: 1. 多模态HCI的核心概念与意义 多模态HCI通过集成语音、文本、图像、触觉等多种信息模式,实现人与计算机之间的自然、灵活、高效交互。这一技术的核心目标是: • 提高交互的自然性与沉浸感。 • 拓展人机交互的场景适用性。 • 促进计算机理解人类多样化输入模式的能力。 2. 未来发展方向 文章中从五个研究领域进行了系统的梳理: 1️⃣大数据可视化交互 📢概念:将复杂数据转化为易于理解的图形化表示,通过多感知通道(视觉、触觉、听觉等)增强用户体验。 🔎进展: • 基于虚拟现实(VR)和增强现实(AR)的数据可视化探索; • 在医疗和科研领域中,通过触觉反馈(如力觉和振动反馈)帮助用户更好地理解数据分布。 📝应用: • 智能城市监控:通过动态热力图实时展示城市流量数据。 • 医疗数据分析:结合触觉反馈进行多维数据的探究。 2️⃣基于声场感知的交互 📢概念:利用麦克风阵列和机器学习算法分析环境中的声场变化,帮助实现非视觉化的人机交互。 🔎进展: • 声源定位技术的精度提升; • 噪声环境下的鲁棒性语音交互技术。 📝应用: • 智能家居:语音控制设备,无需接触即可完成任务。 • 助残技术:为视觉障碍用户提供基于声音的交互方式。 3️⃣混合现实实物交互 📢概念:通过混合现实技术(MR)将虚拟信息与物理世界交融,用户可使用现实中的物体操控虚拟环境。 🔎进展: • 基于物理触觉的虚拟物体交互优化; • 高精度物理-虚拟对象映射技术。 📝应用: • 教育培训:通过模拟现实环境进行沉浸式教学。 • 工业设计:利用虚拟原型进行产品验证。 4️⃣可穿戴交互 📢概念:通过智能手表、健康监测设备等可穿戴设备,采用手势、触摸或皮肤电子技术实现交互。 🔎进展: • 皮肤传感器的灵敏度和耐用性提升; • 多通道融合算法增强交互准确性。 📝应用: • 健康监控:心率、睡眠和运动状态的实时跟踪; • 游戏娱乐:通过可穿戴设备操控虚拟角色。 5️⃣人机对话交互 📢概念:研究语音识别、情感识别、语音合成等技术,让计算机更好地理解和响应用户的语言输入。 🔎进展: • 大语言模型的普及(如GPT等)极大提高对话系统的自然性; • 语音情感识别技术的准确率提升。 📝应用: • 客服机器人:支持多语言语音交互。 • 智能助理:个性化语音指令响应。 所以我们看到很多AI Agent 的项目,尤其是Web3领域的,大多还停留在人机对话交互的智能助理层面,比如24小时发推文,千人千面的AI语音聊天,情侣聊天等。但最近我们也观察到一些做智能穿戴的 #Depin 项目+ #AI 的结合,来提供身体健康数据领域的创新,比如戒指(具体哪一家我就不奶了,自己可以去查,也是 #SOL 链生态的),比如手表,比如吊坠等。这里面的机会比传统只做单一的 #AI 公链或者应用,来的更有价值和有趣,投资人也会更喜欢,毕竟我们投了2家,硬件+软件+AI,这将是一个潜力的方向! 3. 目前科技企业大力投入的领域 1. 拓展交互方式:探索新型交互手段,如嗅觉和温度感知等,进一步提升多模态融合的维度。 2. 优化多模态组合:设计高效、灵活的多模态组合方式,使不同模式之间能够更自然地协同工作。 3. 设备小型化:开发更轻便、更低功耗的设备以适应日常使用。 4. 跨设备分布式交互:提升设备间的互操作性,实现无缝的多设备交互。 5. 算法鲁棒性提升:特别是在开放环境下,提高多模态感知与融合算法的稳定性与实时性。 4. 值得投资的应用场景 • 医疗康复:通过语音、图像和触觉反馈,帮助患者进行康复训练与心理疏导。 • 办公教育:提供智能化办公助手和个性化教育平台,提升效率与体验。 • 军事仿真:结合混合现实技术,用于作战模拟与战术培训。 • 娱乐与游戏:打造沉浸式游戏与娱乐体验,增强用户与虚拟环境的互动感。 总结:李博士这篇文章,利用AI Agent未来落地的场景应用,系统性地梳理了多模态HCI的核心技术,并结合实际应用和未来研究方向,为 #AIAgent 的投资者指明了方向和投资的逻辑。这篇文章,可以说是2024年必读的AI书籍,让我更清晰地认识到多模态人机交互技术在推动未来智能化生活中的关键作用,揭示了它在开放环境和复杂场景下的巨大潜力。投资未来,才能把握财富!还是那句话:布局 #AI,学习 #AI,投资 #AI。刻不容缓!🧐